python pdf删除图片_使用PyMuPdf提取、删除及替换PDF中的图片文件

最新推荐文章于 2024-04-28 16:17:01 发布

weixin_39623355

最新推荐文章于 2024-04-28 16:17:01 发布

阅读量1.8k

点赞数 2

文章标签： python pdf删除图片

本文介绍了如何使用PyMuPdf库在Python中操作PDF文件中的图片，包括提取图片、删除图片和替换图片。通过page.getImageList()获取图片列表，_deleteObject删除指定图片，insertImage方法实现替换，但需要注意原始图片位置和大小的获取问题。

摘要由CSDN通过智能技术生成

有时候想把PDF中的图片文件提取出来，身为程序员的我当然是自己写段代码来实现，先看看了网上的方法，都是逐行遍历，正则匹配来提取什么的，其实没有那么复杂，PyMuPdf官方文档里自带就有提取图片文件的方法，非常简单，下来用代码来记录下：

1.提取图片

#coding:utf-8

import fitz,os

doc = fitz.open('E:\\files\\25109878.pdf')

imgcount=0

for page in doc:

imageList = page.getImageList()

print(imageList)

for imginfo in imageList:

pix = fitz.Pixmap(doc, imginfo[0])

pix.writePNG(os.path.join("test\\t_{}.png".format(imgcount)))

imgcount+=1

短短几行代码聊表心意，通过page.getImageList()提取到图片列表信息，然后在使用fitz.Pixmap提取对应的图片内容，就是这么简单，我们来提取下一张发票里的图片：

电子发票里基本都是文字形式的，只有二维码和下方印章的图片，执行上面的代码看看:

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39623355

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何利用Python将PDF转化为图片？

lmseo5hy的博客

07-11

6673

python的功能真是强大，可以做词云图、可以优雅地八卦、可以做游戏外挂、还可以将PDF转化成图片，这个功能你还不知道吧，赶紧随小编我一起来看看吧：之前收集了很多优秀的 PDF文档，但是需要看的时候不是很方便，需要去找到这个文件，如果是在手机上的话往往还需要下载 PDF相关的插件才行，而且最大的问题是不便于资料的整理和分享。如果能够将 PDF转换成网页，岂不是就能解决这些问题了?还能直接分享出去。...

python pdf删除图片_Python把PDF的图片提取出来做新的PDF

weixin_30959465的博客

01-28

433

海信A2墨水屏，看PDF太小。放大后刷新太慢。所以想用Python把PDF分割每次看一段。先找了大神的帖子，用PyPDF提取图像。我的是扫描件，都是灰度图。灰度图提取后用OpenCV 处理。再把处理的文件导入到WORD中，生成PDF。也尝试过用PyPDF直接生成PDF的方案，但是发现PyPDF中没有相关函数。后来找了好多PDF的库，基本要都是读取PDF的内容。所以就只能用先生成Word再生成PD...

参与评论您还未登录，请先登录后发表或查看评论

使用PyMuPdf删除及替换PDF中的图片

cup319的博客

04-29

1416

import fitz if tuple(map(int, fitz.VersionBind.split("."))) < (1, 19, 5): raise ValueError("Need v1.19.5+") # 用完全透明的pixmap替换实现删除 doc = fitz.open("original.pdf") page = doc[0] page.clean_contents() # unify page's /Contents into one images = page

Python 批量删除PDF中的特定图像

Humbunklung的专栏

04-07

941

两个方法的输入参数xref是图像的外部参照ID号，如“622”。那么，我们就可以通过抽取PDF图像列表的方式，获得外部参照xref的ID，例如运行以下程序，可以从PDF中提取对应图像。MuPDF是一个不错的PDF文件处理库，在Python世界里面，对应的叫做PyMuPDF，它是一个相当给力的工具。从网上下载的一些PDF文件，里面添加了特定的背景图像，当文件有很多页的时候，手工删除并不现实。查看输出目录的图像，我需要删除当中ID为503（一串编码）和504（我的邮箱）的外参图像。三、查找并删除特定的图片。

python pdf删除图片_python-删除PDF空白页

weixin_39982452的博客

12-08

303

from PyPDF4 import PdfFileReader, PdfFileWriter,PdfFileMergerdef delPdfPage(self,pdf_file_path):'''删除pdf 空白页'''pdf_file_path = os.path.join(self.pdf_dir, pdf_file_path)logger.info("path = {}，pdf删除空白页开...

Python 操作PDF图片 – 添加、替换、删除PDF中的图片

Eiceblue的专栏

04-28

2050

文本将提供三个示例，介绍如何使用Python 在PDF文件中添加图片，或替换、删除PDF图片。

python3 去除PDF部分内容

he99774的博客

11-07

3605

先说问题，如图，要把红框的内容去除：比较容易想到的办法是图片操作， 1.先把PDF文件转化为图片， 2.新建一张空白图片， 3.把空白图片粘贴到pdf转化的图片上，覆盖内容。 4.最后再把图片转化为PDF。部分关键代码如下： import pdf2image import img2pdf from PIL import Image # 输出单个pdf #file_na...

python提取pdf中的文字和图片_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）...

weixin_34931370的博客

01-13

1020

PDF文件格式如今，可移植文档格式(PDF)属于最常用的数据格式。在1990年，PDF文档的结构由Adobe定义。PDF格式的思想是，对于通信过程中涉及的双方(创建者，作者或发送者以及接收者)而言，传输的数据/文档看起来完全相同。工具和库适用于Python的PDF工具，模块和库的可用解决方案范围有些混乱，需要花一点时间弄清楚什么是什么，以及哪些项目需要连续维护。根据我们的研究，以下是最新的候选人：...

python读取xps文件_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）

weixin_31974443的博客

01-15

1123

PyMuPDF-fitz.txt

04-01

Python版MuPDF包用法精简汇总笔记，只需导入fitz几行代码轻松提取pdf每页面图，文本型PDF也会自动转图片

python读取xps文件_Python操做PDF-文本和图片提取（使用PyPDF2和PyMuPDF）

weixin_29865333的博客

02-04

828

PDF文件格式现在，可移植文档格式(PDF)属于最经常使用的数据格式。在1990年，PDF文档的结构由Adobe定义。PDF格式的思想是，对于通讯过程当中涉及的双方(建立者，做者或发送者以及接收者)而言，传输的数据/文档看起来彻底相同。html工具和库适用于Python的PDF工具，模块和库的可用解决方案范围有些混乱，须要花一点时间弄清楚什么是什么，以及哪些项目须要连续维护。根据咱们的研究，如下是...

Python 处理 PDF 的神器 -- PyMuPDF

AudiA6LV6的博客

09-19

817

在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。MuPDFMuPDF是一个轻量级的PDF、XPS和电子书查看器。MuPDF由软件库、命令行工具和各种平台的查看器组成。MuPDF中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和。

python处理pdf文件

博客

08-06

2151

对pdf文件的常见操作需求包括读取pdf中的文字图表，新建或截取pdf，pdf与其他格式的转换等。通过代码可更灵活的实现各种功能需求。在众多可处理pdf的包中选择PyMuPDF进行介绍。PyMuPDF是MuPDF的python接口，可处理的文件格式后缀包括 pdf，xps，oxps，cbz，fb2， epub。另外一些也可处理10余种常见图片格式，包括：png，jpg，bmp，tiff等。.........

Python去除PDF文件水印（PyMuPDF包）

qq_20144897的博客

11-20

2305

使用Python去除PDF文件水印，基于PyMuPDF包，截止2022年11月20日代码运行无报错

python替换pdf内容_如何使用python替换/删除pdf中的文本？

weixin_39887577的博客

12-06

3598

python轻松去除pdf文件中的水印，还可以将水印修改为想要的文字——fitz

qq_52529296的博客

08-14

2121

遵循着万物皆可Py的原则，又解决了pdf文件处理的一个小问题...

还在到处求人发原图？不如用Python给图片和 PDF 去掉水印~